One Model to Rule Them All!

Autor:in

Samuel Merk

Herzlich Willkommen!

Materialien

Alle Materialien unter https://bit.ly/merk111

Wer bin ich?
  • Samuel Merk
  • Professor für empirische Schul- und Unterrichtsforschung
  • Interessiert an evidenzinformierter Schul- und Unterrichtsentwicklung
  • Open Science Enthusiast
Wer seid ihr?
  • Inhaltliche Interessen
  • Stand der Qualifikation
  • Vorerfahrung Statistik
    • Workshops
    • Modelle (t-Test, ANOVA, …)
    • Software
  • Warum habt ihr den Workshop gewählt?

Masterplan

  • Korrelation
  • Regression
    • Einfache lineare Regression (LM)
    • Multiple lineare Regression
  • Generalized Linear Models (GLM)
    • Logistische Regression
    • Poisson Regression

Zum Modus des Workshops

Was können wir (nicht) vom Workshop erwarten?

Typischerweise erwartet »man« zu viel von einem Workshop wie diesem. Niemand wird nach 3,5 Stunden das GLM beherrschen.
Jedoch müssen alle irgendwo & irgendwie anfangen. Der Workshop soll für viele die Gelegenheit bieten Anstoß für eigene Elaborationen zu finden.

Wie maximiere ich meinen Lernerfolg?

M.E. am besten mit möglichst aktiver Elaboration. Wenn man gerade unterfordert ist, erklärt man den Inhalt seiner Kollegin und wenn man gerade überfordert ist bittet man die Kollegin um eine Erklärung.

Block I: Grundbegriffe

Kontrastiert und vergleicht die folgenden Begriffsets und eleboriert mit euren Partnern Beispiele aus eurer eigenen Forschung
  • Korrelation, Kausalität, Regression
  • Inferenzstatistik, Deskriptivstatistik, Effektstärken
  • Signifikanz, p-Werte, \(\alpha\)-Niveau

Korrelationen beschrieben die Koinzidenz von bivariat-normalverteilter Daten/Variablen. Von kausaler Relationierung zweier Variablen spricht man, wenn wenn die Veränderung einer Variable einer Änderung der anderen Variable induziert. Zwei kausal relationierte Variablen korrelieren nicht immer. Zwei korrelierende Variablen sin dnicht immer kausal relationiert.

Inferenzstatistik macht Aussagen über den stochastischen Prozess der ein vorliegenden Datensatz generiert. Typischerweise werden dabei Hypothesen getestet oder die Unsicherheit einer Parameterschätzung quantifiziert. Deskriptivstatistik macht Aussagen über einen Datensatz. Effektstärken (z.B. Cohen’s d) können Deskriptivstatistiken sein. Konfidenz- oder Credibilityintervalle von Effektstsärken stellen allerdings Infernezstatistiken dar.

p-Werte quantifizieren die Wahrscheinlichkeit vorliegende (oder extremer gegen die Nullhypothese sprechende Daten) zu erhalten unter der Annahme, dass die Nullhypothese wahr ist. Fällt diese Wahrscheinlicheit und eine a priori festegelegte Irrtumswahrscheinlichkeit \(\alpha\) spricht man von Signifikanz.

Block II: Korrelation

Warm-Up Aufgaben

Interpretationsaufgaben

Angenommen die folgenden Daten stellen das Ergebnis eines Lesetests dar, in Abhängigkeit des Umfangs einer Leseförderung, die randomisiert unterschiedlich lange ausgebracht wurde. Was sagen diese Daten aus?

Die nächsten Daten beschreiben die Anzahl der Nobelpreise und die durschnittliche Menge gegessener Schokolade in einer Reihe von Ländern. Was sagen diese Daten aus?

Datenaufgabe
  • Berechnet die Korrelationen und
  • testet diese auf die Nullhypothese \(H_0: \; r = 0\) mit einem p-Wert oder Bayes Factor

Definitionen

Die Pearson Korrelation ist wie folgt definiert:

\[r_{x, y}=\frac{\sum_{i=1}^n\left(x_i-\bar{x}\right)\left(y_i-\bar{y}\right)}{\sqrt{\sum_{i=1}^n\left(x_i-\bar{x}\right)^2 \sum_{i=1}^n\left(y_i-\bar{y}\right)^2}} = \frac{Cov(x,y)}{s_x \cdot s_y} = Cov(x,y) \cdot \frac{1}{s_x} \cdot \frac{1}{s_y}\]

In der folgenden dynamischen Visualisierung kann man sehen, dass die Kovarianz der »gerichteten Fläche« entspricht:

Da die Kovarianz aber von der Maßeinheit der Größen abhängt wird diese durch die Standardabweichung beider Größen geteilt.

Eigenschaften Pearson’s \(r\)

  • Pearson’s \(r\) beschreibt die Stärke der (negativen oder positiven) Assoziation zweier bivariat normalverteilten Variablen
  • Pearson’s \(r\) nimmt Werte zwischen -1 und 1 an \((-1 \leq r \leq 1)\). -1 impliziert die maximale negative Assoziation, 0 keine Assoziation und 1 die maximale positive Assoziation
  • Nach Cohen (1988), gilt \(r =.1\) (bzw. \(r = -.1\)) als kleiner Effekt, \(r =.3\) (bzw. \(r = -.3\)) als moderater und \(r =.5\) (bzw. \(r = -.5\)) als starker Effekt

Visual Guessing Pearson’s \(r\)

Meiner Erfahrung nach ist es höchst sinnvoll Effektstärken in Grafiken überstezen zu können und umgekehrt. Um dies zu lernen kann die folgende handgestrickte App dienen.

Block III: Regression

Einfache lineare Regression

Bsp: Lernstunden vs. Lernerfolg

Parametrisierung

  • Darstellung als Formel (Term)
    • Typische Schreibweise: \(y_i = b_0 + b_1 \cdot x_i + \epsilon_i\)
    • Generalisierte Schreibweise: \(y_i \sim \mathcal{N}(\mu,\,\sigma^{2})\) mit \(\mu = b_0 + b_1 \cdot x_i\)
    • Datenbeispiel: \(\text{Punkte}_i = 10 + 0,5 \cdot \text{Vorbereitungsaufwand}_i + \epsilon_i\)
  • Darstellung als Pfadmodell

Parameterschätzung

Effektstärke \(\beta_1\)

Effektstärke \(R^2\)

Übung: Einfache lineare Regression

Diese Datei enthält die Klausurdaten aus dem Beispiel oben.

Basisaufgabe:

  • Bestimmt die standardisierten und unstandardisierten Regressionskoeffizienten sowie \(R^2\) und interpretiert sie.

Vertiefungsaufgaben

  • Schätzt die Parameter in einem bayesianischen Framework mit {brms} und vergleicht Konfidenz mit Credibilityintervallen
  • Berechnet einen Bayes Factor via BayesFactor der das Modell mit Prädiktor mit einem Modell ohne Prädiktor vergleicht

Multiple Regression

  • Typische Schreibweise: \(y_i = b_0 + b_1 \cdot x_{1i} + b_2 \cdot x_{2i} + \dots + b_j \cdot x_{ji} + \epsilon_i\)
  • Generalisierte Schreibweise: \(y_i \sim \mathcal{N}(\mu,\,\sigma^{2})\) mit \(\mu = b_0 + b_1 \cdot x_{1i} + b_2 \cdot x_{2i} + \dots + b_j \cdot x_{ji}\)
  • Datenbeispiel: \(\text{Punkte}_i = -0,13 + 0,52 \cdot \text{Vorbereitungsaufwand}_i + 0,38 \cdot \text{Pruefungsangst}_i + \epsilon_i\)
  • Darstellung als Pfadmodell

  • Geometrische Darstellung
Aufgabe

Basisaufgabe

  • Bestimmt die standardisierten und unstandardisierten Regressionskoeffizienten und interpretiert sie ebenso wie deren p-Werte.

Vertiefungsaufgabe

  • Was sagen die Ergebnisse über die kausale Relation der Variablen aus?
data_kl <- read_sav("data/klausur_data_m.sav")

lm_kl01 <- lm(Punkte ~ Vorbereitungsaufwand , 
              data = data_kl)
summary(lm_kl01)

Call:
lm(formula = Punkte ~ Vorbereitungsaufwand, data = data_kl)

Residuals:
     Min       1Q   Median       3Q      Max 
-13.8260  -2.0486   0.0091   2.5091   8.1411 

Coefficients:
                     Estimate Std. Error t value Pr(>|t|)    
(Intercept)           1.81471    1.69265   1.072    0.289    
Vorbereitungsaufwand  0.51649    0.05491   9.406 1.81e-12 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 4.246 on 48 degrees of freedom
Multiple R-squared:  0.6483,    Adjusted R-squared:  0.6409 
F-statistic: 88.47 on 1 and 48 DF,  p-value: 1.809e-12
lm_kl02 <- lm(Punkte ~ Vorbereitungsaufwand + Pruefungsangst, 
              data = data_kl)
summary(lm_kl02)

Call:
lm(formula = Punkte ~ Vorbereitungsaufwand + Pruefungsangst, 
    data = data_kl)

Residuals:
    Min      1Q  Median      3Q     Max 
-12.627  -2.267  -0.651   2.533   8.913 

Coefficients:
                     Estimate Std. Error t value Pr(>|t|)    
(Intercept)          -0.13243    1.92373  -0.069   0.9454    
Vorbereitungsaufwand  0.51633    0.05337   9.674 9.22e-13 ***
Pruefungsangst        0.37681    0.19297   1.953   0.0568 .  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 4.127 on 47 degrees of freedom
Multiple R-squared:  0.6747,    Adjusted R-squared:  0.6608 
F-statistic: 48.73 on 2 and 47 DF,  p-value: 3.464e-12

Multiple Regression mit Dummyvariablen (a.k.a t-Test & ANOVA)

Beispieldaten

Als Datengrundlage sollen auf Klassenebene aggregierte Leistungswerte in Mathematik aus dem STAR-Projekt dienen. Sie untersuchen die Effekte einer Klassengrößenreduktion bzw. Hilfslehrkraft (Achilles u. a., 1985).

g3classtype g3tchid math_per_class regsizeplusaid regsize
3 11203810 614.6400 1 0
2 11203811 608.5417 0 1
1 11203812 581.3077 0 0
2 12305610 633.4375 0 1
1 12305611 613.1000 0 0
3 12305612 633.6364 1 0

Ein Modell \(Mathescore_i \sim \mathcal{N}(\mu,\,\sigma^{2})\) mit \(\mu = b_0 + b_1 \cdot regsizeplusaid_{i} + b_2 \cdot regsize_{i}\) beschreibt die beiden Mittelwertsdifferenzen der Gruppen »kleine Klasse« und »reguläre Klasse« sowie »kleine Klasse« und »reguläre Klasse mit Hilfslehrkaft«.

star_model01 <- lm(math_per_class ~ regsize, 
                   data = data_star |> 
                     filter(regsizeplusaid != 1))
star_model02 <- lm(math_per_class ~ regsize + regsizeplusaid, 
                   data = data_star)

tab_model(star_model01, star_model02,
          show.std = T)
  math per class math per class
Predictors Estimates std. Beta CI standardized CI p Estimates std. Beta CI standardized CI p
(Intercept) 623.20 -0.00 619.55 – 626.85 -0.13 – 0.13 <0.001 623.20 -0.00 619.55 – 626.86 -0.11 – 0.11 <0.001
regsize -6.59 -0.15 -12.48 – -0.69 -0.28 – -0.02 0.029 -6.59 -0.13 -12.49 – -0.68 -0.25 – -0.01 0.029
regsizeplusaid -8.06 -0.17 -13.61 – -2.50 -0.29 – -0.05 0.005
Observations 227 334
R2 / R2 adjusted 0.021 / 0.017 0.028 / 0.022

Block IV: Generalized Linear Models

Ein verallgemeinertes lineares Modell umfasst typischerweise

  1. einen Datenvektor \(y = (y_1, . . . , y_n)\)
  2. Prädiktoren \(\mathbf{X}\) und Koeffizienten \(\beta\), die einen linearen Prädiktor \(\mathbf{X}{\beta}\) bilden
  3. Eine Verknüpfungsfunktion \(g\), die einen Vektor von transformierten Daten \(\hat{y}=g^{-1}(\mathbf(X) \beta)\) ergibt, die zur Modellierung der Daten verwendet werden
  4. Eine Datenverteilung \(P(y)\)
  5. Möglicherweise andere Parameter, wie Varianzen, »Überstreuungen« und Grenzwerte, die in die Prädiktoren, die Verknüpfungsfunktion und die Datenverteilung eingehen.

Beispiel logistische Regression

Mit der logistischen Regression werden Binäre Daten (nominale Variablen mit zwei Ausprägungen) anhand von metrischen oder dummykodierten Variablen prädiziert. Dabei gilt:

\[\begin{aligned} y_i & \sim \operatorname{Bernoulli(p_i)} \\ \operatorname{logit}\left(p_i\right) & =X_i \beta \end{aligned}\]

mit \(\operatorname{logit}(x)=\log (x /(1-x))\).

Datenbeispiel

Als Datengrundlage sollen hier über zehntausend Wählenrinnen dienen, die entwender beabsichtigten G. W. Bush zu wählen bush = 1 oder nicht bush = 0. Diese binäre abhängige Variable kann dann mit den unabhängigen Variablen edu, age, female etc. prädiziert werden.

data_poll_repub
# A tibble: 13,544 × 10
   org         year survey     bush state   edu   age female black weight
   <dbl+lbl>  <dbl> <dbl+lbl> <dbl> <dbl> <dbl> <dbl>  <dbl> <dbl>  <dbl>
 1 1 [cbsnyt]     1 1 [9152]      1     7     2     2      1     0   1403
 2 1 [cbsnyt]     1 1 [9152]      1    33     4     3      0     0    778
 3 1 [cbsnyt]     1 1 [9152]      0    20     2     1      1     0   1564
 4 1 [cbsnyt]     1 1 [9152]      1    31     3     2      1     0   1055
 5 1 [cbsnyt]     1 1 [9152]      1    18     3     1      1     0   1213
 6 1 [cbsnyt]     1 1 [9152]      1    31     4     2      0     0    910
 7 1 [cbsnyt]     1 1 [9152]      1    40     1     3      0     0    735
 8 1 [cbsnyt]     1 1 [9152]      1    33     4     2      1     0    410
 9 1 [cbsnyt]     1 1 [9152]      0    22     4     2      1     0    410
10 1 [cbsnyt]     1 1 [9152]      1    22     4     3      0     0    778
# ℹ 13,534 more rows
mod_poll01 <- 
  glm(bush ~ age, 
      family = binomial(link = "logit"),
      data = data_poll_repub)
summary(mod_poll01)

Call:
glm(formula = bush ~ age, family = binomial(link = "logit"), 
    data = data_poll_repub)

Deviance Residuals: 
   Min      1Q  Median      3Q     Max  
-1.313  -1.292   1.047   1.067   1.108  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  0.36314    0.04812   7.547 4.47e-14 ***
age         -0.04930    0.01887  -2.613  0.00898 ** 
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 15858  on 11565  degrees of freedom
Residual deviance: 15851  on 11564  degrees of freedom
  (1978 observations deleted due to missingness)
AIC: 15855

Number of Fisher Scoring iterations: 3
mod_poll02 <- 
  glm(bush ~ black, 
      family = binomial(link = "logit"),
      data = data_poll_repub)
summary(mod_poll02)

Call:
glm(formula = bush ~ black, family = binomial(link = "logit"), 
    data = data_poll_repub)

Deviance Residuals: 
   Min      1Q  Median      3Q     Max  
-1.336  -1.336   1.027   1.027   1.752  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  0.36581    0.01968   18.59   <2e-16 ***
black       -1.65796    0.08382  -19.78   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 15858  on 11565  degrees of freedom
Residual deviance: 15376  on 11564  degrees of freedom
  (1978 observations deleted due to missingness)
AIC: 15380

Number of Fisher Scoring iterations: 4
tab_model(mod_poll01, mod_poll02)
  bush bush
Predictors Odds Ratios CI p Odds Ratios CI p
(Intercept) 1.44 1.31 – 1.58 <0.001 1.44 1.39 – 1.50 <0.001
age 0.95 0.92 – 0.99 0.009
black 0.19 0.16 – 0.22 <0.001
Observations 11566 11566
R2 Tjur 0.001 0.041

Literatur

Achilles, C. M., Bain, H. P., Bellot, F., Boyd-Zaharias, J., Finn, J., Folger, J., … Word, E. (1985). The State of Tennessee’s Student/Teacher Achievement Ratio (STAR) Project (Technical {{Report}}). Tennessee State Department of Educatbn.
Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences (Second). New Jersey: Lawrence Erlbaum.